Indexation de textes: l'apprentissage des concepts
نویسندگان
چکیده
hi technical fields, mmly documents go unread due to a lack of awareness of their existence. A system which indexes texts can find all relevant texts in response to a query. The problem is to establish the indexation. At present , adwmced full text sys tems automatically index texts on the complete thesaurus with computed weights. Another way of doing this carl be a person choosing the set of relevant concepts. This second solution is better but more costly and dependent on the classification choices made by the operator. To meet these problems, ANA (Auomatic Natural Acquisition) had been developed. This sys tem automatical ly extracts relevant concepts from free texts to produce a semantic network. It does not rely on grammar or lexicon but, instead, is based on ,an original statistical method. This research brings about two developments : oll one hand the system is also capable of extracting the simple grammatical structures it encounters, most often in order to improve its performance, and on the other hand this will lead to an automatic definition of semantic classes of concepts, in order to structure the network. ACRES DE COLING-92, NANTES. 23-28 ̂ Ol~q" 1992 1 I 9 7 PROC. OF COLING-92. NANI'ES, AUG. 23-28. 1992 1 I N T R O D U C T I O N : Le domaine des grandes bases de comlaissances, rassemblant des textes, est apparu vers les anndes 50 comme une des applications privilEgiEes de la puissance des ordinateurs. Deux besoins cruciaux out Et6 identifi~s : l'indexation des textes doit Otre correcte, la recherche dolt /~tre efficace en rdponse ~ une simple question. Au cocur de ces probl~mes, se pesent le choix des concepts et, plus gEnEralement, la definition de nouveaux thesaurus. Sahon avait prEconisd d~s 1966 l 'automatisation de ces tilches car leur rEalisation manuelle est coflteuse et non dEtemfiniste [SALT 66]. N o u s prEsentons ici le sys t~me A N A (Apprentissage Naturel AutomatisE) qui sElectionne les concepts (sur lesquels seront indexes les textes de la base), eL les structures afin de faciliter las interrogations uttErieures. Nous avons choisi de travailler avec le minimum de connaissances, sails analyseur syntaxique, sans dictiormaire, uniquement par l'observation statistique des textes. Les concepts sElectionnEs sont alors directement issus de la langue employee. A cette exigeucc dc simplicitE, nous avons ajoutd la robustesse. Le systEme dolt supporter les dysfonctionnements que pourrait causer une lacune clans ses connaissances. Enfin, la simplicitd des ressources utilisEes permet au syst~me d'auto-dEcouvrir les connaissances dont il a besoin. l n d e x a t i o n m a n u e l l e Les syst~mes les plus simples et les plus rEpandas sont bases sur la selection de mots-clEs clans les textes. Une question utilisant ces mots donne accEs aux textes a ins i sdlect ionnEs. Ces sys t~mes prEsentent l'ineonvEnient d'&re tr~.s rigides : I'ajout d'un nouveau mot-clE oblige ,h reparcourir tousles textes dEjb. indexes pour y rechercher sa presence. M~me automatisEe, cette procedure est trb, s contraignante. De plus Salton [SALT 86] a dEmontr6 les inconvEnients de I'indexation manuelle. A titre d'exemple, deux sujets diffErcnts ne choisissent quhh 70% des mots-clEs identiques pour indexer un m~me document ~ I'aide du m~me thesaurus. De plus, des informations, qui, hun moment dnnnd, ne semblent pas pertinentes/~ l'indexeur peuvent jouer un r61e contexte important [ANDRa] M E t h o d e s s t a t i s t i q u e s Le probi~me du choix des concepts est contournE Iorsque l'on utilise le thesaurus en entier. Des crit~:res purement statistiques, se rEfErant ~t la valeur des termes d'indexation et non/1 leur sens [DACH] sont utilisds pour indexer les textes. Trb~s t6t, Stiles a montrd l'intdrt~.t de prendre en compte les occurrences simultandes de termes [STIL 61]. Plus rEcemment sont apparus les rEseaux connexionistes qui permettent de gErer dynamiquement les liens et les coefficients de ponddration affectant les termes d'indexation du thesaurus [KIMO 90]. Dans [ANDRc] , on utilise les probabilitEs de Bayes actualis~es en fonction des rEponses et du poids sEmantique des termes dans le thesaurus (ou le dict ionnaire) . Cette thEorie oblige /1 dis t inguer homographes et synonymes car ceux-ci peuvent provoquer des biais importants. Turtle tente de simplifier les calculs de probabilitE dont la complexitE grandit de fad:on exponentielle avecla taille de la base [TURT 91]. D'autres mEthodes sont dEveloppEes pour representer le contenu sEmantique de chaque document, en particulier ~ raide de matrices : les lignes 6tant les documents et les colonnes les mots-clEs. C'est la mdthode de la structuration de la sEmantique latente [FURN], [DEER 88], [DEER 90],
منابع مشابه
Annotation sémantique de documents pour la révision des règles métiers
Résumé : Les systèmes décisionnels reposent généralement sur un ensemble de règles métiers dont la formalisation nécessite souvent de revenir aux documents sources pour des raisons de justification ou de maintenance. Cela pose un problème complexe d’annotation sémantique puisqu’il faut articuler des textes réglementaires, des règles métiers qui en sont dérivées de manière plus ou moins directe ...
متن کاملExploitation des connaissances d'UMLS pour la recherche d'information médicale. Vers un modèle bayésien d'indexation
RÉSUMÉ. La recherche d’information à base de connaissances est largement étudiée, mais avec peu de succès. Dans cet article, nous étudions l’impact de l’exploration d’une base de connaissance, nommée méta thésaurus UMLS pour la recherche d’information médicale. D’abord, l’indexation par concepts d’UMLS extrait dans des textes ne montre qu’une légère amélioration de MAP(Mean Average Precision) p...
متن کاملMulti-catégorisation de textes juridiques et retour de pertinence
Résumé. La fouille de données textuelles constitue un champ majeur du traitement automatique des données. Une large variété de conférences, comme TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille de textes juridiques, dans l’objectif est le classement automatique de ces textes. Nous utilisons des outils d’analyses linguistiques (extraction de terminologie) dans le ...
متن کاملAnalyse Texte et Image pour la caractérisation de l'activité dans les Films d'Animation
RÉSUMÉ. Définir une indexation pertinente sur le contenu sémantique des films ou vidéos est un défi actuel. Nous proposons de rechercher et de caractériser l’activité contenue dans un film à partir d’une analyse conjointe texte et image. L’analyse des images nous donne de nombreux indicateurs, pauvres en sémantique, tandis que l’étude des textes courts que sont les synopsis nous donne des indic...
متن کاملIndexation de textes médicaux par extraction de concepts, et ses utilisations. (Medical texts indexation using concepts extraction, and its use)
The work presented in this paper specifically targets the accessibility to medical information. We used a French medical dictionary (specifically created for the medical domain), and built an index tool to particularly recognize a concept from a medical thesaurus that is present in a sentence written in natural language. First we indexed medical documents with a set of concepts and then demonst...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 1992